搜索是数字平台和应用程序中的关键功能之一,如电子词典,搜索引擎和电子商务平台。虽然某些语言的搜索功能是微不足道的,但是,考虑到其复杂的写作系统,Khmer Word搜索是具有挑战性的。单词的多个字符和不同的拼写实现对Khmer Word搜索功能的约束施加了约束。此外,拼写错误很常见,因为强大的拼写检查器在输入设备平台上不可能可用。这些挑战阻碍了在搜索嵌入式应用中使用了高棉语言。此外,由于缺乏用于高棉语言的Wordnet的词汇数据库,因此无法在单词之间建立语义关系,从而实现语义搜索。在本文中,我们向上述与高棉Word搜索相关的挑战提出了一系列强大的解决方案。所提出的解决方案包括字符阶级标准化,图形和基于音素的拼写检查器和Khmer Word语义模型。语义模型基于嵌入模型的单词培训,该模型在30亿字的语料库上培训,用于捕获单词之间的语义相似之处。
translated by 谷歌翻译
文本分类是标记开放式文本的自然语言处理中的基本任务之一,对各种应用有用,如情绪分析。在本文中,我们讨论了Khmer文本的各种分类方法,从传统的TF-IDF算法到支持向量机分类器到基于现代字的基于词嵌入的神经网络分类器,包括线性层模型,经常性神经网络和卷积神经网络。 Khmer Word嵌入式模型培训在3000万Khmer-Word语料库上,以构建用于培训三种不同神经网络分类器的字矢量表示。我们为多类和多标签文本分类任务评估了对新闻文章数据集的不同方法的性能。结果表明,使用Word嵌入模型的神经网络分类器始终如一地始终使用TF-IDF来表达传统分类器。与卷积网络和线性层网络相比,经常性神经网络分类器提供稍好的结果。
translated by 谷歌翻译
本文提出了将语音分离和增强(SSE)集成到ESPNET工具包中的最新进展。与以前的ESPNET-SE工作相比,已经添加了许多功能,包括最近的最新语音增强模型,并具有各自的培训和评估食谱。重要的是,已经设计了一个新界面,以灵活地将语音增强前端与其他任务相结合,包括自动语音识别(ASR),语音翻译(ST)和口语理解(SLU)。为了展示这种集成,我们在精心设计的合成数据集上进行了实验,用于嘈杂的多通道ST和SLU任务,可以用作未来研究的基准语料库。除了这些新任务外,我们还使用Chime-4和WSJ0-2MIX进行基准多链和单渠道SE方法。结果表明,即使在ASR以外的任务,尤其是在多频道方案中,SE前端与后端任务的集成也是一个有希望的研究方向。该代码可在https://github.com/espnet/espnet上在线获得。 HuggingFace上发布了这项工作的另一个贡献的多通道ST和SLU数据集。
translated by 谷歌翻译